THRD: Defensa sin entrenamiento para ataques multi-turno en LLMs
Descubre THRD, el primer marco sin entrenamiento que detecta ataques multi-turno en LLMs analizando riesgo acumulativo. Reduce éxito de ataques a menos del 4%.
Descubre THRD, el primer marco sin entrenamiento que detecta ataques multi-turno en LLMs analizando riesgo acumulativo. Reduce éxito de ataques a menos del 4%.